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Aufzeichnungseinrichtung zur Aufzeichnung einer Sprachinformation 
fur eine anschliefiende Offline-Spracherkennung 

5 Die Erfindung bezieht sich auf eine Aufzeichnimgseinrichtung zum Aufzeichnen einer 
Sprachinformation eines Diktats und zum anschieBenden Abgeben der aufgezeichneten 
Sprachinformation des Diktats an eine Spracherkennungseinrichtung zur Offline- 
Spracherkennung mit Empfangsmitteln zum Empfangen der Sprachinformation des Diktats 
und mit Aufzeichnungsmitteln zum Aufzeichnen der empfangenen Sprachinformation des 

10 Diktats in einer Aufzeichnungsbetriebsart der Aufzeichnungseinrichtung und mit 

Abgabemitteln zum Abgeben der aufgezeichneten Sprachinformation des Diktats in einer 
Abgabebetriebsart der Aufzeichnungseinrichtung an die Spracherkennungseinrichtung, die 
zum Erkennen einer der abgegebenen Sprachinformation zuzuordnenden Textinformation 
ausgebildet ist, wobei die Qualitat der erkannten Textinformation von der Qualitat der 

15 empfangenen Sprachinformation abhangig ist. 

Ein solche Aufzeichnungseinrichtung gemSB der vorstehend im ersten Absatz 
angegebenen Gattung ist aus dem Dokument GB-A-2,323,693 bekannt und durch einen 

20 Computerserver eines Offline-Spracherkennungsservices gebildet. Ein Benutzer kann zur 
Verwendung des Offline-Spracherkennungsservices den Computerserver mit einem 
Telefon anrufen und ein Diktat in das Telefon sprechen. Empfangsmittel des 
Computerservers sind mit der Telefonleitung verbunden und durch eine Harddisc gebildete 
Aufzeichnungsmittel speichern das empfangene Sprachsignal. 

25 Nach Beendigung des Diktats durch den Benutzer wird das aufgezeichnete Sprachsignal 
zur Offline-Spracherkennung an eine Spracherkennungseinrichtung abgegeben. Die 
Spracherkennungseinrichtung erkennt die dem Sprachsignal zuzuordnende 

Textinformation, worauf ein Mitarbeiter des Offline-Spracherkennungsservices die 

offensichtlichen Fehler in der erkannten Textinformation korrigiert. AnschlieBend wird die 

30 erkannte und korrigierte Textinformation per Email an den Benutzer des Offline- 

Spracherkennungsservices ubermittelt und die in Anspruch genommene Leistung dem 
Benutzer verrechnet. 



PHAT000040 EP-P - 2 - 

Bei der bekannten Aufzeichnungseinrichtung hat sich als Nachteil erwiesen, dass der 
Benutzer des Offline-Spracherkennungsservices ein gegebenenfalls langes Diktat diktiert 
und keinerlei Feedback erhalt, ob die Qualitat des empfangenen und aufgezeichneten 
Sprachsignals ausreichend gut ist, um das anschlieBend abgegebene Sprachsignal mit der 
5 Spracherkennungseinrichtung erfolgreich verarbeiten zu konnen. Wenn es bei einem 
Benutzer des Offline-Spracherkennungsservices einmal passiert, dass das aufgezeichnete 
Sprachsignal seines Diktats - beispielsweise auf Grand einer schlechten Telefonleitung - 
nicht von der Spracherkennungseinrichtung ausgewertet werden kann, dann wird dieser 
Benutzer das Offline-Spracherkennungsservice nicht mehr verwenden, was 
10 nachteiligerweise einen groBen finanziellen Schaden fur den Betreiber des Offline- 
Spracherkennungsservices bedeutet. 

Als weiterer Nachteil der bekannten Aufzeichnungseinrichtung hat sich ergeben, dass 
bei einer schlechten Qualitat der erkannten Textinformation der Mitarbeiter des Offline- 
Spracherkennungsservices eine Vielzahl von offensichtlichen Fehlem ausbessern muss. 
15 Somit konnen die Kosten fur das Offline-Spracherkennungsservice wesentlich reduziert 
werden, wenn der Benutzer des Offiine-Spracherkennungsservice bereits wahrend des 
Diktats auf die schlechte Qualitat der empfangenen Sprachinformation hingewiesen wird. 



20 Die Erfindung hat sich zur Aufgabe gestellt, eine Aufzeichnungseinrichtung zu 

schaffen, bei der der Benutzer eines Offline-Spracherkennungsservices bereits wahrend des 
Diktats Feedback erhalt, ob die Qualitat des empfangenen Sprachsignals ausreicht, um mit 
der nachgeschalteten Spracherkennungseinrichtung bei einer Offline-Spracherkennung eine 
Textinformation mit einer ausreichenden hohen Qualitat zu erkennen. 
25 Diese Aufgabenstellung wird bei einer Aufzeichnungseinrichtung gemaB der in dem 
ersten Absatz angegebenen Gattung durch das Vorsehen von Sprachqualitatsprttfmitteln, 
die zum Pnifen ausgebildet sind, ob die Qualitat der in der Aufzeichnungsbetriebsart 
empfangenen-Sprachinformation ausreicht, um bei einer Verarfeeitung_der_in der 
Abgabebetriebsart mit den Abgabemitteln abgegebenen Sprachinformation mit der 
30 Spracherkennungseinrichtung eine vorgegebene Qualitat der erkannten Textinformation zu 
erhalten, und durch das Vorsehen von Feedbackmitteln gelost, die zum Abgeben einer 
Feedbackinformation in der Aufzeichnungsbetriebsart der Aufzeichnungseinrichtung 



m=mmm 



mwmm 



PHAT000040 EP-P - 3 - 

ausgebildet sind, welche Feedbackinformation das Ergebnis der Priifung der 
Sprachqualitatspriifmittel wiedergibt 

Hierdurch ist der Vorteil erhalten, dass der Benutzer der Aufzeichnimgseinrichtung 
bereits wahrend des Diktats Feedback erhalt, ob die Qualitat der empfangenen 
5 Sprachinformation zur erfolgreichen Verarbeitung mit einer Spracherkennungseinrichtung 
ausreichen wird. 

Es kann erwahnt werden, dass ein Diktiergerat bekannt ist, das eine 
Aussteuerungsanzeige aufweist, anhand der der Benutzer die Aussteuerung des 
aufgezeichneten Sprachsignals erkennt. Der Benutzer kann hierauf zum Erhalt einer 

10 besseren Aussteuerung des aufgezeichneten Sprachsignals lauter oder leiser sprechen. 
Dieses Uberwachen nur eines von vielen Parametern des empfangenen Sprachsignals 
genugt jedoch keinesfalls, urn die vorstehend angegebene Aufgabe zuverlassig zu losen. 

Weiters kann erwahnt werden, dass eine Spracherkennungseinrichtung zur Abarbeitung 
eines Online-Spracherkennungsverfahrens bekannt ist, bei der ein Benutzer ein Diktat in 

15 ein Mikrofon diktieren kann und nach einer kurzen Verarbeitungszeit mit einem Monitor 
den erkannten Text angezeigt erhalt. Zusatzlich wird mit dem Monitor die Aussteuerung 
des verarbeiteten Sprachsignals dargestellt. Wenn der Benutzer durch viele Fehler in dem 
erkannten Text erkennt, dass die Qualitat des erkannten Texts schlecht ist, dann kann der 
Benutzer die Darstellung der Aussteuerung des verarbeiteten Sprachsignals dazu nutzen, 

20 seine Lautstarke beim Diktieren entsprechend zu verandern oder die Audioanpassung des 
Mikrofons der Spracherkennungseinrichtung neu durchzufuhren. 

Bei dem bekannten Diktiergerat und der bekannten Spracherkennungseinrichtung zur 
Online-Spracherkennung wird nur ein Parameter des empfangenen und verarbeiteten 
Sprachsignals dargestellt, was in keiner Weise einer Priifung der Qualitat der empfangenen 

25 Sprachinformation entspricht, ob diese fur einen anschlieBenden Spracherkennungsvorgang 
geeignet ist. Zusatzlich erfolgt bei dem bekannten Diktiergerat mid der bekannten 
Spracherkennungseinrichtung uber die reine Darstellung der Aussteuerung des 
verarbeiteten-Sprachsignals hinaus kein weiterer Hinweis, ab welchem_Aussteuerungswert 
die Qualitat der empfangenen Sprachinformation nicht ausreichend gut fur eine 

30 anschlieBende Offline-Spracherkennung ist, was bei einer reinen Aufzeichnung eines 

Diktats zur spateren Audiowiedergabe oder bei einer Online-Spracherkennung auch nicht 
notig ist. Somit war durch das bekannte Diktiergerat und die bekannte 
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Spracherkennungseinrichtung zur Online-Spracherkennung weder die Aufgabenstellung 

fur die erfindungsgemaBe Aufzeichnungseinrichtung noch die erfindungsgemaBe Losung 

dieser Aufgabenstellung bekannt. 

Gemass den MaBnahmen des Anspruchs 2 und des Anspruchs 3 ist der Vorteil erhalten, 
5 dass die Qualitat des von der Aufzeichnungseinrichtung aufzuzeichnenden Sprachsignals 

bereits bei der Aufzeichnung bezuglich eines ausreichend guten Signal- zu 

Rauschverhaltnisses und eines ausreichend guten Pegels geprUft wird. 

Gemass den MaBnahmen des Anspruchs 4 ist der Vorteil erhalten, dass gepriift wird, 

wie schnell der Benutzer die Worte des Diktats spricht, und dass der Benutzer bei einer zu 
1 0 hohen Sprechgeschwindigkeit durch eine Feedbackinformation aufgefordert wird 

langsamer zu sprechen, urn eine entsprechend hohe Qualitat der erkannten Textinformation 

zu erhalten. 

Gemass den MaBnahmen des Anspruchs 5 ist der Vorteil erhalten, dass gepriift wird, 
wie deutlich bzw. verstandlich der Benutzer die Worte des Diktats spricht, und dass der 
1 5 Benutzer bei einer zu undeutlichen Aussprache der Worter durch eine Feedbackinformation 
aufgefordert wird deutlicher bzw. verstandlicher zu sprechen, urn eine entsprechend hohe 
Qualitat der erkannten Textinformation zu erhalten. 

Gemass den MaBnahmen des Anspruchs 6 ist der Vorteil erhalten, dass eine 
Aufzeichnungseinrichtung dazu ausgebildet ist, dem Benutzer wahrend des Diktats einen 
20 Hinweis auf den Grund der niedrigen Qualitat der empfangenen Sprachinformation zu 
geben, um durch darauffolgende MaBnahmen durch den Benutzer eine Aufzeichnung der 
Sprachinformation in einer fur eine nachfolgende Spracherkennung ausreichend hohen 
Qualitat zu erreichen. 



Die Erfindung wird im Folgenden anhand von zwei Ausfuhrungsbeispielen nSher 
eriautert, auf die die Erfindung aber nicht beschrankt ist. 

Figur-l-zeigt einen Anrufbeantworter als Aufzeichnungseinrichtung,-von dem eine 
aufgezeichnete Sprachinformation an eine Spracherkennungseinrichtung abgebbar ist. 
30 Figur 2 zeigt ein tragbares Diktiergerat, das an eine Spracherkennungseinrichtung 
anschlieBbar ist und das Sprachqualitatsprufinittel und drei Leuchtdioden aufweist, die 
gegebenenfalls einen Hinweis auf den Grund der niedrigen Qualitat der empfangenen 
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Sprachinformation geben. 

Die Figur 1 zeigt ein Offline-Spracherkennungssystem 1 zum Abarbeiten eines Offline- 
5 Spracherkennungsverfahrens, das ein Telefon 2, einen Anrufbeantworter 3, einen 

Spracherkennungs-Computer 4 und einen Benutzer-Computer 5 aufweist. Das Telefon 2 
und der Benutzer-Computer 5 stehen dem Benutzer des Offline-Spracherkennungssystems 
1 zur Verfiigung und sind fiber ein Telefon/Datennetz NET mit dem Anrufbeantworter 3 
und dem Spracherkennungs-Computer 4 verbunden. 
10 Der Spracherkennungs-Computer 4 arbeitet eine Spracherkennungssoftware - wie 

beispielsweise die Spracherkennungssoftware SpeechMagic der Fa.Philips - ab und bildet 
hierbei eine Spracherkennungseinrichtung fur ein Offline-Spracherkennimgsverfahren. Die 
Spracherkennungseinrichtung ist zum Empfangen von digitalen Sprachdaten SD(SI) einer 
abgegebenen Sprachinformation SI und zum Erkennen einer der empfangenen 
15 Sprachinformation SI zuzuordnenden Textinformation TI ausgebildet, wie dies seit langem 
bekannt ist. 

Die Qualitat der erkannten Textinformation TI kann durch einen Erkenn-Qualitatswert 
beschrieben werden, der als Verhaltnis der in der erkannten Textinformation TI enthaltenen 
richtig erkannten W6rtern zu alien in der erkannten Textinformation TI enthaltenen 
20 Wdrtern ermittelt werden kann. Die Qualitat der von der Spracherkennimgseinrichtung 
erkannten Textinformation TI ist von vielen Einflussfaktoren anhangig. Solche 
Einflussfaktoren sind beispielsweise der Trainingszustand der 

Spracherkennungseinrichtung und die Anzahl der von der Spracherkeimungseinrichtung 
erkennbaren und in einem Basislexikon enthaltenen Worter. Einer dieser Einflussfaktoren 

25 ist aber auch die Qualitat der von der Spracherkennimgseinrichtung empfangenen 

Sprachinformation SI, da selbst die beste Spracherkennungseinrichtung zu einer qualitativ 
schlechten Sprachinformation SI keine Textinformation TI mit einem guten Erkenn- 
Qualitatswert erkennen kann. - 

Die Qualitat der Sprachinformation SI kann bereits beim Diktat durch zu starke 

30 Hintergrundgerausche oder durch ein schlechtes Mikrofon des Telefons 2 oder aber auch 
erst bei der Ubertragung der Sprachinformation SI durch schlechte 
Ubertragungseigenschaften der Telefonleitung des Telefon/Datennetzes NET nachteilig 
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beeinflusst werden. Die Qualitat eines die Sprachinformation SI enthaltenden analogen 
elektrischen Sprachsignals SS(SI) kann hierbei durch das Signal zu Rauschverhaltnis des 
Sprachsignals SS(SI) und durch den Pegel des Sprachsignals SS(SI) beschrieben werden. 
Wenn die in dem Sprachsignal SS(SI) enthaltene Sprachinformation SI von der 

5 Spracherkennungseinrichtung zur Erkennung der Textinformation TI ausgewertet werden 
soli, dann kann die Qualitat der Sprachinformation SI fur das Offline- 
Spracherkennungsverfahren auch durch weitere Kennwerte beschrieben werden. Einer 
dieser Kennwerte ist ein Sprechgeschwindigkeitskennwert, der die Geschwindigkeit der 
Abfolge der in der Sprachinformation SI enthaltenen Worter angibt, worauf nachfolgend 

1 0 noch naher eingegangen ist. 

Sowohl der Spracherkennungs-Computer 4 als auch der Benutzer-Computer 5 arbeiten 
eine E-Mail-Software - wie beispielsweise Lotus Notes der Fa.EBM - ab und sind mit dem 
Telefon/Datennetz NET verbunden. Der Spracherkennungs-Computer 4 sendet als 
Abschluss des Offline-Spracherkennungsverfahrens die erkannte Textinformation TI als 

1 5 Attachement eines E-Mails an den Benutzer-Computer 5 des Benutzers des Offline- 
Spracherkennungssystems 1 . 

Der Anrufbeantworter 3 bildet eine Aufzeichnungseinrichtung zum Aufzeichnen der an 
den Annifbeantworter 3 abgegebenen Sprachinformation SI eines Diktats und zum 
anschieBenden Abgeben der aufgezeichneten Sprachinformation SI des Diktats. Hierfur 

20 weist der Anrufbeantworter 3 Empfangsmittel 6, Aufzeichnungsmittel 7 und Abgabemittel 
8 auf. 

Die Empfangsmittel 6 enthalten einen Telefonstecker 9 und eine Telefoninterfacestufe 
10. Der Anrufbeantworter 3 ist tiber den Telefonstecker 9 mit dem Telefon/Datennetz NET 
verbunden. Der Benutzer des Offline-Spracherkennungssystems 1 kann mit seinem Telefon 

25 2 die Telefonnummer des Anrufbeantworters 3 wahlen und die Sprachinformation SI 
seines Diktats, das er geme als erkannte Textinformation TI mit seinem Benutzer- 
Computer 5 empfangen wiirde, in das Telefon 2 sprechen. Hierbei ist die 
—Telefoninterfacestufe 10 zum Empfangen und Abgeben der-dem-Telefonstandard 

entsprechenden Signale und Spannungen ausgebildet, wie dies seit langem bekannt ist. Das 

30 Sprachsignal SS(SI) der Sprachinformation SI wird somit von dem Telefon 2 iiber das 
Telefon/Datennetz NET, den Telefonstecker 9 und die Telefoninterfacestufe 10 an die 
Aufzeichnungsmittel 7 abgegeben. 
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Die Aufzeichnungsmittel 7 enthalten einen Analog-Digital-Wandler, urn das analoge 
Sprachsignal SS(SI) der Sprachinformation SI in digitale Sprachdaten SD(SI) zu wandeln. 
Die Aufzeichnungsmittel 7 enthalten weiters eine Harddisc, mit der die Sprachdaten 
SD(SI) in einer Aufzeichnungsbetriebsart des Anrufbeantworters 3 aufgezeichnet werden. 
5 Die Aufzeichnungsmittel 7 bilden einen Teil der Abgabemittel 8 und sind in einer 
Abgabebetriebsart des Anrufbeantworters 3 zum Wiedergeben bzw. Abgeben der 
aufgezeichneten Sprachdaten SD(SI) ausgebildet. Die Abgabemittel 8 des 
Anrufbeantworters 3 enthalten weiters eine Datenverarbeitungsstufe 11, mit der die 
wiedergegebenen Sprachdaten SD(SI) gemaB einem Codierverfahren codiert werden, das 
10 dem Spracherkennungs-Computer 4 die weitere Verarbeitung der Sprachdaten SD(SI) 
erleichtert. Uber einen Datenanschluss 12 der Abgabemittel 8 werden die verarbeiteten 
Sprachdaten SD(SI) von dem Anrufbeantworter 3 an den Spracherkennungs-Computer 4 
abgegeben. 

Der Anrufbeantworter 3 weist nunmehr Sprachqualitatspriiftnittel 13 auf, die zum 

15 Priifen ausgebildet sind, ob die Qualitat der in der Aufzeichnungsbetriebsart empfangenen 
Sprachinformation SI ausreicht, urn bei einer Verarbeitung der in der Abgabebetriebsart 
von den Abgabemitteln 8 abgegebenen Sprachinformation SI mit der 
Spracherkennungseinrichtung eine vorgegebene Qualitat der erkannten Textinformation TI 
zu erreichen. Hierfur sind die Sprachqualitatspriifinittel 13 zum Priifen des Signal zu 

20 Rauschverhaltnisses des Sprachsignals SS(SI), des Pegels des Sprachsignals SS(SI) und 
des Sprechgeschwindigkeitskennwertes der Sprachinformation SI ausgebildet. 

Zum Priifen des Signal zu Rauschverhaltnisses wird von Zeitabschnitten des 
Sprachsignals SS(SI) mit jeweils 50ms der Energieinhalt der Spektralanteile ermittelt und 
eine Haufigkeitsverteilung der ermittelten Energieinhalte erstellt. Umso breiter die Kurve 

25 der auf diese Weise ermittelten Haufigkeitsverteilung ist, desto geringer ist das Signal zu 
Rauschverhaltnis des Sprachsignals SS(SI). Dem Fachmann sind weitere vergleichbare 
Verfahren zur Ermittlung des Signal zu Rauschverhaltnisses eines elektrischen Signals 

bekannt. 

Bei einem zu geringen Signal zu Rauschverhaltnis sind relativ groBe Rauschanteile in 

30 dem Sprachsignal SS(SI) enthalten und fuhren bei der Analog-Digital- Wandlung des 

Sprachsignals SS(SI) zu einer StSrung, weshalb die in den Sprachdaten SD(SI) enthaltene 
Sprachinformation SI nicht mehr mit der von dem Benutzer gesprochenen 
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Sprachinformation SI tibereinstimmt. Die in einem solchen qualitativ schlechten 
Sprachsignal SS(SI) mit einem zu geringen Signal zu Rauschverhaltnis enthaltene 
Sprachinformation SI kann von der Spracherkennungseinrichtung nur mit einem relativ 
schlechten Erkenn-Qualitatswert erkannt werden. 
5 Zum Prttfen des Pegels des Sprachsignals SS(SI) werden die ermittelten Energieinhalte 
der Spektralanteile addiert, wobei Spikes der Energieinhalte unberiicksichtigt bleiben. Bei 
einem zu geringen Pegel des Sprachsignals SS(SI) wirken sich dem Sprachsignal SS(SI) 
tiberlagerte Storsignale wesentlich starker aus, als wenn das Sprachsignal SS(SI) einen 
ausreichend hohen Pegel aufweist. Ein zu geringer Pegel des Sprachsignals SS(SI) 
1 0 kennzeichnet daher eine schlechte Qualitat des Sprachsignals SS(SI). 

Zum Priifen der Sprechgeschwindigkeit ermitteln die Sprachqualitatspriifinittel 13 den 
Sprechgeschwindigkeitskennwert der Sprachinformation SI. Hierfur ermitteln in den 
Sprachqualitatspriifmitteln 13 vorgesehene Zeitmessmittel die Zeitabstande benachbarter 
Abschnitte des Sprachsignals SS(SI), die hohe Energieinhalte aufweisen. Je geringer die 
1 5 auf diese Weise ermittelten Zeitabstande der Abschnitte des Sprachsignals SS(SI) sind, 
desto rascher folgen Vokale in der Sprachinformation SI aufeinander und umso rascher hat 
derBenutzer des Offline-Spracherkennungssystems 1 gesprochen. 

Die Qualitat der Sprachinformation SI ist fur die Verarbeitung entsprechend dem 
Offline-Spracherkennungsverfahren schlecht, wenn der ermittelte 
20 Sprechgeschwindigkeitskennwert kennzeichnet, dass der Benutzer relativ schnell 
gesprochen hat. Eine solche Sprachinformation SI ist von der 
Spracherkennungseinrichtung nur schlecht erkennbar, weshalb die von der 
Spracherkennungseinrichtung in diesem Fall erkannte Textinformation TI eine schlechte 
Qualitat und einen nur geringen Erkenn-Qualitatswert aufweist. 
25 Das Priifen des Sprachsignals SS(SI) durch die Sprachqualitatsprufmittel 13 erfolgt 
wahrend einer Zeitspanne von jeweils 10 Sekunden, worauf als Ergebnis der Priifung der 
Qualitat der empfangenen Sprachinformation SI eine Sprachqualitatsinformation QI an 
Feedbackmittel 14 des-Anrufbeantworters 3 abgegeben wird. Durch das Priifen-des 
Sprachsignals SS(SI) wahrend der Zeitspanne ist erreicht, das eine nur kurzfristig schlechte 
30 Qualitat des Sprachsignals SS(SI) durch beispielsweise ein Knacksen in der Telefonleitung 
zu keinem niedrigen Wert der Sprachqualitatsinformation QI fuhrt. 

Die Feedbackmittel 14 sind bei in dem Anrufbeantworter 3 aktivierter 
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Aufzeichnungsbetriebsart und beim Empfang eines niedrigen Wertes der 
Sprachqualitatsinformation QI zum Abgeben einer Feedbackinformation FI an den 
Benutzer des Offline-Spracherkennungssystems 1 ausgebildet. Die Feedbackinformation FI 
kennzeichnet hierbei das Ergebnis der Priifung der Sprachqualitatsprilfinittel 13. 

5 Hierdurch ist der Vorteil erhalten, dass der Benutzer des Offline- 

Spracherkennungssystems 1 bereits wahrend des Diktierens eine Feedbackinformation FI 
erhalt, wenn die Qualitat der in dem Anrufbeantworter 3 empfangenen Sprachinformation 
SI zu schlecht ist, um bei dem daraufFolgenden Offline-Spracherkennungsverfahren eine 
erkannte Textinformation TI mit einer ausreichend hohen Qualitat zu ermitteln. Der 

1 0 Benutzer kann daher vorteilhafterweise unmittelbar auf die Feedbackinformation FI 
reagieren und es ist vermieden, dass das gesamte Diktat des Benutzers wegen einer zu 
niedrigen Qualitat der Sprachinformation SI nicht verwendet werden kann. 

Die Funktionsweise des Offline-Spracherkennungssystems 1 und die Vorteile des 
Anrufbeantworters 3 sind im Folgenden anhand eines Anwendungsbeispiels naher 

1 5 erlautert. Es sein angenommen, dass der Benutzer des Offline-Spracherkennungssystems 1 
ein Arzt ist, der einen Befund diktieren mochte. Weiters sei angenommen, dass der Arzt 
bereist einmal eine Identifizierungsroutine des Offline-Spracherkennungssystems 1 
abgearbeitet hat und dass - auf in der Figur 1 nicht naher dargestellte Weise - die 
Telefonnummer des Telefons 2 des Arztes gemeinsam mit der Kreditkartennummer des 

20 Arztes, zur Verrechnung der Offline-Spracherkennimgsserviceleistung, in dem Offline- 
Spracherkennungssystem 1 gespeichert wurde. 

Der Arzt wahlt nunmehr die Telefonnummer des Anrufbeantworters 3 und h6rt den 
Anrufbeantwortertext ab, der die Benutzung des Online-Spracherkennungssystems 1 kurz 
erklart Durch die in dem Telefonprotokoll iibertragene Telefonnummer des Telefons 2 

25 identifizieren die Telefoninterfacemittel 10 den Anrufer, wodurch die Verrechnung der 
Offline-Spracherkennungsserviceleistung ermoglicht ist. AnschlieBend wird die 
Aufzeichnungsbetriebsart des Anrufbeantworters 3 aktiviert und der Arzt beginnt mit dem 

Sprechen beziehungsweise Diktieren des Befundes-Hierauf wird die Sprachinformation SI 

der gesprochenen Worter als Sprachsignal SS(SI) mit den Empfangsmitteln 6 empfangen 

30 und als Sprachdaten SD(SI) mit der Harddisc der Aufzeichnungsmittel 7 gespeichert. 
Wahrend der Arzt diktiert, kommt seine Assistentin in das Zimmer vmd Qffiiet das 
Fenster, worauf der Strafienlarm als relativ starkes Hintergrundgerausch in der von dem 
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Anrufbeantworter empfangenen Sprachinformation SI enthalten ist. Der auf sein Diktat 
konzentrierte Arzt nimmt hiervon keine Notiz und diktiert seinen Befund weiter. 

Die Sprachquahtatspriifmittel 13 stellen hierauf als Ergebnis der laufend durchgefiihrten 
Pruning des Signal zu Rauschverhaltnisses, des Pegels und der Sprechgeschwindigkeit fest, 
5 dass das Signal zu Rauschverhaltnis des Sprachsignals SS(SI) wesentlich geringer 
geworden ist und geben eine entsprechende Sprachqualitatsinformation QI an die 
Feedbackmittel 14 ab. Die Feedbackmittel 14 geben hierauf einen in den Feedbackmitteln 
14 aufgezeichneten Text als Feedbackinformation FI wieder, mit dem der Benutzer auf zu 
laute Hintergrundgerausche in seinem Raum hingewiesen wird. Ein dem wiedergegebenen 
1 0 Text entsprechendes Sprachsignal SS(FI) wird ttber den Telefonstecker 9 und das 

Telefon/Datennetz NET an das Telefon 2 abgegeben. Mit dem Feedbacktext FI wird der 
Benutzer weiters gebeten, die Hintergrundgerausche zu reduzieren, da sonst die erkannte 
Textinformation TI viele Fehler aufweisen wird. 

Hierdurch ist der Vorteil erhalten, dass der Arzt sofort auf das Problem des zu lauten 
1 5 Hmtergrundgerausches hingewiesen wurde und eine Vielzahl von Fehlem in der erkannten 
Textinformation TI des ab dem Offnen des Fensters diktieren Diktats vermieden werden 
konnten. Durch den Feedbacktext FI aufmerksam gemacht, schlieBt der Arzt das Fenster 
und setzt das Diktat fort, wodurch das Problem mit dem zu lauten Hintergrundgerausch 
gel6st ist. 

20 Nachdem der Arzt das Diktat fertig diktiert hat beendet er das Telefonat, worauf der 
Anrufbeantworter von der Aufzeichnungsbetriebsart in die Abgabebetriebsart schaltet und 
die aufgezeichneten Sprachdaten SD(SI) des Diktats des Arztes an den Spracherkennungs- 
Computer 4 abgibt. Wenn wahrend der Abgabe der Sprachdaten SD(SI) ein weiterer 
Benutzer des Offline-Spracherkennungssystems 1 den Anrufbeantworter 3 anruft, dann 
25 wird die Abgabebetriebsart unterbrochen und zu einem spateren Zeitpunkt fortgesetzt. 

Die durch den Spracherkennungs-Computer 4 gebildete Spracherkennungseinrichtung 
erkennt hierauf die den abgegebenen Sprachdaten SD(SI) zuzuordnende Textinformation 

Tlund gibt diese als ein Attachement eines E-Malls-arrden Benutzer-Computer 5 des 

Arztes ab. Der Arzt erhalt somit den zu seinem Diktat erkannten Text per E-Mail und die 
30 Kosten dieses Offline-Spracherkennungsservices werden von seinem Kreditkartenkonto 



GemaB einem weiteren Anwendungsbeispiel des Offline-Spracherkennungssystems 1 



abgebucht. 





PHAT000040 EP-P - 11 - 

wahlt der Arzt die Telefonnummer des Anrufbeantworters 3, wobei in diesem Fall die 
Ubertragungsqualitat der Telefonleitung des Telefon/Datennetzes NET relativ schlecht ist. 
Dies wird von den Sprachqualitatspriifmitteln 14 bereits bei der Priifung des Sprachsignals 
SS(SI) der ersten Worter des Diktats des Arztes durch ein geringes Signal zu 
5 Rauschverhaltnis und einen geringen Pegel des Sprachsignals SS(SI) festgestellt. 

Vorteilhaflerweise erhalt der Arzt daher von den Feedbackmitteln 14 bereits nach den 
ersten Wortern des Diktats eine Feedbackinformation FI, mit der er gebeten wird, das 
Telefonat zu beenden und neuerlich anzurufen, da die Qualitat der Telefonleitung sehr 
schlecht ist. Hierdurch ist neuerlich vermieden, dass der Arzt das gesamte Diktat in das 

10 Telefon 2 diktiert und auf Grund der schlechten Qualitat des erkannten Textes mit dem 
Offline-Spracherkennungssystem 1 unzufrieden ist. 

Durch die unmittelbare Feedbackinformation FI der Aufzeichnungseinrichtung kann 
vorteilhaflerweise zusatzlich vermieden werden, dass ein Mitarbeiter des Offline- 
Spracherkennungssystems 1, der den von dem Spracherkennungs-Computer 4 erkannten 

15 Text auf offensichtliche Fehler iiberpriift bevor dieser per E-Mail an den Benutzer- 

Computer 5 iibermittelt wird, sehr viele Fehler korrigierten musste. Es konnte daher durch 
das unmittelbare Feedback an den Benutzer zusatzlich Arbeitszeit des Mitarbeiters gespart 
werden, womit das Offline-Spracherkennungsservice kostengunstiger durchgefuhrt werden 
kann. 

20 In der Figur 2 ist ein in der Hand des Benutzers haltbares digitales Diktiergerat 15 

dargestellt, das ebenfalls eine Aufzeichnungseinrichtung fur eine Offline-Spracherkennung 
bildet. Die von dem Benutzer gesprochene Sprachinformation SI des Diktats wird von 
Empfangsmitteln 16 empfangen, die ein Mikrofon 17 und eine Signal verarbeitungsstufe 18 
enthalten. 

25 In einer Aufzeichnungsbetriebsart des Diktiergerats 15 wird das von der 

Signalverarbeitungsstufe 18 abgegebene Sprachsignal SS(SI) der Sprachinformation SI mit 
Aufzeichnungsmitteln 19 gespeichert, die einen Analog-Digital-Wandler und ein Flash- 
RAM mifeiner Stiitzbatterie als Speichermedium enthalten. 

Die Aufzeichnungsmittel 19 bilden einen Teil von Abgabemitteln 20 und geben in einer 

30 Abgabebetriebsart des Diktiergerats 15 die die aufgezeichnete Sprachinformation SI 
enthaltenden digitalen Sprachdaten SD(SI) an eine Datenverarbeitungsstufe 21 der 
Abgabemittel 20 ab. Die Datenverarbeitungsstufe 21 ist zum Verarbeiten der 



PHAT000040 EP-P - 12 - 

wiedergegebenen Sprachdaten SD(SI) und zum Abgeben der verarbeiteten Sprachdaten 
SD(SI) an einen Datenanschluss 22 ausgebildet. 

Das Diktiergerat 15 ist mit seinem Datenanschluss 22 an einen Spracherkennungs- 
Computer 23 anschlieBbar, der eine Spracherkennungssoftware abarbeitet. Die von dem 

5 Spracherkennungs-Computer 23 zu der von dem Diktiergerat 1 5 abgegebenen 

Sprachinformation SI erkannte Textinformation TI wird von dem Spracherkennungs- 
Computer 4 an einen Monitor 24 abgegeben und mit diesem dargestellt. 

Das Diktiergerat 15 weist nunmehr weiters Sprachqualimtspriifinittel 13 auf, deren 
Funktionsweise mit der Funktionsweise der Sprachqualitatspriifmittel 13 gemaB Figur 1 

10 ubereinstimmt. Die von den Sprachqualitatspriifmitteln 13 ermittelte 

Sprachqualitatsinformation QI ist an Feedbackmittel 25 und die Aufzeichnungsmittel 19 
abgebbar. 

Die Feedbackmittel 25 geben eine Einschaltspannung als erste Feedbackinformation FI1 
an eine Leuchtdiode 26 ab, wenn die SprachqualitatsprUfmittel 13 ein zu geringes Signal- 
1 5 zu Rauschverhaltnis des Sprachsignals SS(SI) festgestellt haben. Die Feedbackmittel 25 
geben weiters die Einschaltspannung als zweite Feedbackinformation FI2 an eine 
Leuchtdiode 27 ab, wenn die Sprachqualitatspriifmittel 13 einen zu geringen Pegel des 
Sprachsignals SS(SI) festgestellt haben. Die Feedbackmittel 25 geben weiters die 
Einschaltspannung als dritte Feedbackinformation FI3 an eine Leuchtdiode 28 ab, wenn die 
20 Sprachqualitatspriifmittel 1 3 eine zu hohe Sprechgeschwindigkeit des Benutzers anhand 
des Sprachsignals SS(SI) festgestellt haben. 

Im Folgenden ist die Funktionsweise des Diktiergerats 15 anhand eines 
Anwendungsbeispiels naher erlautert. GemaB dem Anwendungsbeispiel ist angenommen, 
dass sich der Benutzer des Diktiergerats 15 auf Reisen befindet und ein Diktat mit dem 
25 Diktiergerat 1 5 aufzeichnen mochte, urn das aufgezeichnete Diktat nach seiner Ankunft zu 
Hause mit seinem Spracherkennungs-Computer 23 verarbeiten zu lassen und mit dem 
Monitor 24 die erkannte Textinformation TI dargestellt zu erhalten. 

Hierfur aktiviert-der-Benutzer die Aufzeichnungsbetriebsart des Diktiergerats-15-und 
beginnt mit der Aufzeichnung des Diktats. Da der Benutzer sehr in Eile ist, diktiert er sehr 
30 schnell, weshalb die Sprechgeschwindigkeit der zu diesem Zeitpunkt von dem Diktiergerat 
15 aufgezeichnete Sprachinformation SI zu hoch ist, urn bei dem Offline- 
Spracherkennungsverfahren mit dem Spracherkennungs-Computer 23 einen ausreichend 
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hohen Erkenn-Qualitatswert der erkannten Textinformation TI zu erhalten. 

Die Sprachqualitatsprufmittel 13 geben hierauf eine entsprechende 
Sprachqualitatsinformation QI an die Feedbackmittel 25 ab, welche ihrerseits die dritte 
Feedbackinformation FI3 an die Leuchtdiode 28 abgeben. Somit beginnt die Leuchtdiode 
5 28 zu leuchten und weist den Benutzer darauf hin, dass er zu schnell spricht und die 
aufgezeichneten Sprachdaten SD(SI) nicht zur Offline-Spracherkennung geeignet sein 
werden. 

Vorteilhafterweis erkennt der Benutzer durch das Leuchten der Leuchtdiode 28, dass er 
die Worter des Diktats zu schnell spricht und spricht hierauf langsamer. Somit erlischt die 
10 Leuchtdiode 28 und die die ab diesem Zeitpunkt aufgezeichneten Sprachdaten SD(SI) sind 
fur die anschliefiende erfolgreiche Verarbeitung mit dem Spracherkennungs-Computer 23 
geeignet. 

Die Aufzeichnungsmittel 19 zeichnen die von den SprachquaUtatspriifmitteln 13 
ermittelte Sprachqualitatsinformation QI den jeweiligen Sprachdaten SD(SI) zugehorig ab, 

15 urn diese in der Abgabebetriebsart des Diktiergerats 15 gemeinsam mit den Sprachdaten 
SD(SI) an den Spracherkennungs-Computer 23 abzugeben. 

Hierdurch ist der Vorteil erhalten, dass der Spracherkennungs-Computer 23 bei der 
Verarbeitung von Sprachdaten SD(SI), die eine Sprachinformation SI mit einer schlechte 
Qualitat aufweisen, zum Ergreifen von geeigneten MaBnahmen ausgebildet sein kann, um 

20 diese Sprachdaten SD(SI) mit einem moglichst guten Ergebnis der Erkenn-Qualitat zu 
verarbeiten. Solche MaBnahmen konnen beispielsweise durch eine geeignete Vor- 
Verarbeitung der empfangenen digitalen Sprachdaten SD(SI) gebildet sein. 

Es kann erwahnt werden, dass als Offline-Spracherkennungsverfahren in diesem 
Zusammenhang ein Spracherkennungsverfahren verstanden wird, bei dem der Benutzer 

25 nicht unmittelbar beim Diktieren die der Sprachinformation SI zugeordnete erkannte 

Textinformation TI angezeigt erhalt, wie dies bei Online-Spracherkennungsverfahren der 
Fall ist. Ein solches Online-Spracherkennungsverfahren ist beispielsweise mit der 

Spracherkennungssoftware FreeSpeech20O0-derFa7Philips realisiert. 

Es kann erwahnt werden, dass es durch den Aufzeichnungs- und Abgabevorgang der 

30 Sprachinformation SI mit den Aufzeichnungsmitteln zu keiner zusatzlichen 

Verschlechterung der Qualitat der empfangenen Sprachinformation SI kommt, da die 
Sprachinformation SI als digitale Sprachdaten SD(SI) aufgezeichnet werden. Daher kann 
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tatsachlich - wie vorstehend beschrieben - durch das Priifen der Qualitat des empfangenen 
analogen Sprachsignals SS(SI) mit den Sprachqualitatspriifinitteln auf die Qualitat der 
letztendlich von der Spracherkennungseinrichtung empfangenen und verarbeiteten 
digitalen Sprachdaten SD(SI) geschlossen werden. 

5 Es kann erwahnt werden, dass die Qualitat der Sprachinformation SI fur das Offline- 
Spracherkennungsverfahren auch durch einen weiteren Kennwerte, namlich einen 
Verstandlichkeits-Kennwert, beschrieben werden kann. Durch eine statistische Analyse der 
zeitlichen Abfolge von Frequenzanteilen des Sprachsignals SS(SI) mit den 
Sprachqualitatspriifmitteln kann festgestellt werden, ob in dem Sprachsignal SS(SI) eine 

10 Sprachinformation SI oder lediglich Gerausche oder Musik enthalten sind. Der 

Verstandlichkeits-Kennwerst kann auch durch eine alternative Analyse des Sprachsignals 
SS(SI) ermittelt werden, bei der unterschiedliche MerkmalsgroBen (mittlere Energie, 
Spektrum, Nulldurchgange, Pitch,...) des Sprachsignals SS(SI) verkoppelt werden, urn das 
Sprachsignal SS(SI) zu klassifizieren. 

1 5 Wenn ein Schwellwert fiir den ermittelten Verstandlichkeits-Kennwert zur 

Unterscheidung, ob in dem Sprachsignal SS(SI) eine Sprachinformation SI enthalten ist 
oder nicht, relativ hoch festgelegt wird, dann wird auch bereits eine von dem Benutzer 
undeutlich bzw. schlecht verstandlich ausgesprochene Sprachinformation SI als Gerausch 
klassifiziert. Auf diese Weise ist es ermoglicht, dass eine erfmdungsgemaBe 

20 Aufzeichnungseinrichtung zum Abgeben einer Feedbackinformation FI an den Benutzer 
ausgebildet ist, die den Benutzer auf seine undeutliche Artikulation bei der Aussprache des 
Diktats hinweist. Hierauf wird der Benutzer deutlicher bzw. verstandlicher sprechen, 
wodurch sich vorteilhafterweise die Qualitat der erkannten Textinformation TI verbessern 
wird. 



PHAT000040 EP-P 



-15- 



Patentanspriiche: 

1. Aufzeichnungseinrichtung zum Aufzeichnen einer Sprachinformation eines Diktats 
und zum anschiefienden Abgeben der aufgezeichneten Sprachinformation des Diktats an 
eine Spracherkennungseinrichtung zur Offline-Spracherkennung mit 

5 Empfangsmitteln zum Empfangen der Sprachinformation des Diktats und mit 

Aufzeichnungsmitteln zum Aufzeichnen der empfangenen Sprachinformation des Diktats 
in einer Aufzeichnungsbetriebsart der Aufzeichnungseinrichtung und mit 
Abgabemitteln zum Abgeben der aufgezeichneten Sprachinformation des Diktats in einer 
Abgabebetriebsart der Aufzeichnungseinrichtung an die Spracherkennungseinrichtung, die 
10 zum Erkennen einer der abgegebenen Sprachinformation zuzuordnenden Textinformation 
ausgebildet ist, wobei die Qualitat der erkannten Textinformation von der Qualitat der 
empfangenen Sprachinformation abhangig ist, und mit 

Sprachqualitatsprufinitteln zum Prufen, ob die Qualitat der in der Aufzeichnungsbetriebsart 
empfangenen Sprachinformation ausreicht, urn bei einer Verarbeitung der in der 
15 Abgabebetriebsart mit den Abgabemitteln abgegebenen Sprachinformation mit der 

Spracherkennimgseinrichtung eine vorgegebene Qualitat der erkannten Textinformation zu 
erhalten, und mit 

Feedbackmitteln zum Abgeben einer Feedbackinformation in der 
Aufzeichnungsbetriebsart, die das Ergebnis der Priifung der Sprachqualitatspriifinittel 
20 wiedergibt. 

2. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Empfangsmittel zum 
Empfangen eines die Sprachinformation enthaltenden Sprachsignals ausgebildet sind und 
wobei die Sprachqualitatspriifinittel zum Prufen des Signal zu Rauschverhaltnisses des 
empfangenen Sprachsignals ausgebildet sind und wobei bei einem zu geringen Signal zu 

25 Rauschverhaltnis von den Feedbackmitteln eine entsprechende Feedbackinformation 
abgebbar ist. 

3. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Empfangsmittel zum 
Empfangen-eines-die Sprachinformation enthaltenden Sprachsignals-ausgebildet sind und 
wobei die Sprachqualitatspriifinittel zum Prufen des Pegels des empfangenen 

30 Sprachsignals ausgebildet sind und wobei bei einem zu geringen Pegel von den 
Feedbackmitteln eine entsprechende Feedbackinformation abgebbar ist. 

4. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Sprachqualitatspriifinittel 



29-06-2000 



EP00890205.8 



CLMS 



PHAT000040 EP-P -16- 

beim Priifen der empfangenen Sprachinfonnation zum Ermitteln der 
Sprechgeschwindigkeit des Benutzers ausgebildet sind und wobei bei einer zu hohen 
Sprechgeschwindigkeit von den Feedbackmitteln eine entsprechende Feedbackinfonnation 
abgebbar ist. 

5 5. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Sprachqualitatspriifinittel 
beim Priifen der empfangenen Sprachinfonnation zum Ermitteln der Verstandlichkeit bzw. 
Deutlichkeit der von dem Benutzer gesprochenen Worter des Diktats ausgebildet sind und 
wobei bei einer nicht verstandlichen bzw. zu undeutlichen Aussprache der WSrter durch 
den Benutzer von den Feedbackmitteln eine entsprechende Feedbackinformation abgebbar 

10 ist. 

6. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Feedbackmittel zum 
Abgeben einer Feedbackinformation ausgebildet sind, die dem Benutzer einen Hinweis 
gibt, wie die Qualitat der empfangenen Sprachinfonnation durch MaBnahmen des 
Benutzers verbessert werden kann. 
1 5 7. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Aufzeichnungseinrichtung 
durch ein in der Hand des Benutzers tragbares Diktiergerat gebildet ist. 

8. Aufzeichnungseinrichtung gemaB Anspruch 1, wobei die Empfangsmittel zum 
Empfangen der Sprachinfonnation an eine Telephonleitung beziehungsweise Datenleitung 
anschlieBbar sind. 
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Zusammenfassung: 



Aufzeichnungseinrichtung zur Aufzeichnung einer Sprachinformation 
fur eine anschlieBende Offline-Spracherkennung 

5 

Bei einer Aufzeichnungseinrichtung (3; 15) zum Aufceichnen einer Sprachinformation 
(SI) eines Diktats und zum anschieBenden Abgeben der aufgezeichneten 
Sprachinformation (SI) des Diktats an eine Spracherkennungseinrichtung (4; 23) zur 
Offline-Spracherkennung sind Empfangsmitteln (6; 16) zum Empfangen der 

10 Sprachinformation (SI) des Diktats und sind Aufzeichnungsmitteln (7; 19) zum 
Aufzeichnen der empfangenen Sprachinformation (SI) des Diktats in einer 
Aufzeichnungsbetriebsart der Aufzeichnungseinrichtung (3; 15) und sind Abgabemitteln 
(8; 20) zum Abgeben der aufgezeichneten Sprachinformation (SI) des Diktats in einer 
Abgabebetriebsart der Aufzeichnungseinrichtimg (3; 15) an die 

15 Spracherkennxmgseinrichtung (4; 23) vorgesehen, die zum Erkennen einer der abgegebenen 
Sprachinformation (SI) zuzuordnenden Textinformation (TI) ausgebildet ist, wobei die 
Qualitat der erkannten Textinformation (TI) von der Qualitat der empfangenen 
Sprachinformation (SI) abhangig ist, wobei nunmehr Sprachqualitatspruftnitteln (13) zum 
Priifen, ob die Qualitat der in der Aufzeichnungsbetriebsart empfangenen 

20 Sprachinformation (SI) ausreicht, urn bei einer Verarbeitung der in der Abgabebetriebsart 
mit den Abgabemitteln (8; 20) abgegebenen Sprachinformation (SI) mit der 
Spracherkennungseinrichtung (4; 23) eine vorgegebene Qualitat der erkannten 
Textinformation (TI) zu erhalten, und Feedbackmitteln (14; 25, 26, 27, 28) zum Abgeben 
einer Feedbackinformation (FT; FI1, FI2, FI3) in der Aufzeichnungsbetriebsart vorgesehen 

25 sind, welche Feedbackinformation (FI; FI1, FI2, FI3) das Ergebnis der Priifung der 
Sprachqualitatspriifmittel (13) wiedergibt. 
(Figur 1) 
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